Telegram Group & Telegram Channel
Forwarded from AI Pulse (Mohammad)
شرکت متا نسل چهارم از مدل‌های زبانی Llama را معرفی کرده که با توانایی‌های چندوجهی و پشتیبانی از کانتکست بسیار بلند، رقیب بسیار جدی‌ای برای مدل‌های اوپن سورس محسوب میشن.

در این مجموعه سه مدل معرفی شده‌: Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth. دو مدل اول به صورت Open Weight عرضه شدن و برای استفاده در پلتفرم‌هایی مثل WhatsApp، Messenger، Instagram Direct و نسخه وب Meta AI در دسترس قرار گرفتن.

مدل Scout با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص، قوی‌ترین مدل توی کلاس خودش به‌شمار میاد و با وجود توانایی‌های چشمگیر، روی یک GPU از نوع H100 اجرا می‌شه. این مدل با داشتن پنجره کانتکست ۱۰ میلیون توکنی، عملکردی بهتر از مدل‌هایی مثل Gemma 3 و Gemini 2.0 Flash-Lite ارائه می‌ده.

مدل Maverick هم که از همون تعداد پارامتر فعال اما با ۱۲۸ متخصص بهره می‌بره، در تست‌های گسترده از GPT-4o و Gemini 2.0 پیشی گرفته و با مدل‌هایی مثل DeepSeek v3 در زمینه‌های استدلال و کدنویسی رقابت می‌کنه؛ اون هم با نصف تعداد پارامتر فعال.

قدرت این مدل‌ها تا حد زیادی مدیون مدل Behemoth هست؛ یک مدل بزرگ ۲ تریلیونی با ۲۸۸ میلیارد پارامتر فعال که نقش "معلم" رو در فرایند آموزش ایفا کرده. Behemoth در بنچمارک‌های ریاضی، کدنویسی و زبان‌های مختلف عملکردی بهتر از مدل‌های شاخصی مثل GPT-4.5، Claude 3.7 و Gemini 2.0 Pro داشته. هرچند هنوز به‌طور کامل عرضه نشده، اما متا وعده داده به‌زودی اطلاعات بیشتری درباره‌ی اون منتشر کنه.

در طراحی این مدل‌ها، معماری Mixture of Experts به‌کار گرفته شده که با فعال‌سازی بخشی از پارامترها به‌ازای هر توکن، هم بازدهی محاسباتی رو افزایش داده و هم کیفیت مدل رو نسبت به مدل‌های متراکم بهبود داده. Llama 4 همچنین به‌صورت چندوجهی طراحی شده و می‌تونه همزمان ورودی‌های متنی و تصویری رو پردازش کنه. در فاز آموزش، از داده‌های متنی، تصویری و ویدیویی در مقیاس بالا استفاده شده و تکنیک‌های جدیدی مثل MetaP برای بهینه‌سازی هایپرپارامترها به‌کار رفته.

در مرحله پس‌آموزش، متا از روش‌های جدیدی مثل یادگیری تقویتی آنلاین و بهینه‌سازی مستقیم ترجیحی برای بهبود مهارت‌های مدل در استدلال، مکالمه و چندوجهی‌بودن استفاده کرده.

مدل Maverick با بهره‌گیری از این روش‌ها، عملکرد چشمگیری در درک تصویر، تولید متن، پاسخ به پرسش‌های بصری و وظایف پیچیده نشون داده. مدل Scout هم با وجود حجم کمتر، در زمینه‌هایی مثل کدنویسی، پردازش کانتکست بلند، و درک تصویری، نتایجی بهتر از تمام نسل‌های قبلی Llama ارائه می‌ده.

در نهایت، متا تأکید کرده که این مدل‌ها با بالاترین استانداردهای ایمنی توسعه داده شدن. ابزارهایی مثل Llama Guard، Prompt Guard و سامانه‌ی تست GOAT برای جلوگیری از خروجی‌های نامناسب یا سؤاستفاده از مدل‌ها ارائه شده و توسعه‌دهندگان می‌تونن این ابزارها رو متناسب با نیاز خودشون تنظیم کنن. همچنین تلاش‌هایی هم برای کاهش سوگیری‌های سیاسی و اجتماعی در پاسخ‌های مدل صورت گرفته تا Llama 4 بتونه دیدگاه‌های مختلف رو به‌درستی درک و بیان کنه.

@aipulse24



tg-me.com/learning_with_m/148
Create:
Last Update:

شرکت متا نسل چهارم از مدل‌های زبانی Llama را معرفی کرده که با توانایی‌های چندوجهی و پشتیبانی از کانتکست بسیار بلند، رقیب بسیار جدی‌ای برای مدل‌های اوپن سورس محسوب میشن.

در این مجموعه سه مدل معرفی شده‌: Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth. دو مدل اول به صورت Open Weight عرضه شدن و برای استفاده در پلتفرم‌هایی مثل WhatsApp، Messenger، Instagram Direct و نسخه وب Meta AI در دسترس قرار گرفتن.

مدل Scout با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص، قوی‌ترین مدل توی کلاس خودش به‌شمار میاد و با وجود توانایی‌های چشمگیر، روی یک GPU از نوع H100 اجرا می‌شه. این مدل با داشتن پنجره کانتکست ۱۰ میلیون توکنی، عملکردی بهتر از مدل‌هایی مثل Gemma 3 و Gemini 2.0 Flash-Lite ارائه می‌ده.

مدل Maverick هم که از همون تعداد پارامتر فعال اما با ۱۲۸ متخصص بهره می‌بره، در تست‌های گسترده از GPT-4o و Gemini 2.0 پیشی گرفته و با مدل‌هایی مثل DeepSeek v3 در زمینه‌های استدلال و کدنویسی رقابت می‌کنه؛ اون هم با نصف تعداد پارامتر فعال.

قدرت این مدل‌ها تا حد زیادی مدیون مدل Behemoth هست؛ یک مدل بزرگ ۲ تریلیونی با ۲۸۸ میلیارد پارامتر فعال که نقش "معلم" رو در فرایند آموزش ایفا کرده. Behemoth در بنچمارک‌های ریاضی، کدنویسی و زبان‌های مختلف عملکردی بهتر از مدل‌های شاخصی مثل GPT-4.5، Claude 3.7 و Gemini 2.0 Pro داشته. هرچند هنوز به‌طور کامل عرضه نشده، اما متا وعده داده به‌زودی اطلاعات بیشتری درباره‌ی اون منتشر کنه.

در طراحی این مدل‌ها، معماری Mixture of Experts به‌کار گرفته شده که با فعال‌سازی بخشی از پارامترها به‌ازای هر توکن، هم بازدهی محاسباتی رو افزایش داده و هم کیفیت مدل رو نسبت به مدل‌های متراکم بهبود داده. Llama 4 همچنین به‌صورت چندوجهی طراحی شده و می‌تونه همزمان ورودی‌های متنی و تصویری رو پردازش کنه. در فاز آموزش، از داده‌های متنی، تصویری و ویدیویی در مقیاس بالا استفاده شده و تکنیک‌های جدیدی مثل MetaP برای بهینه‌سازی هایپرپارامترها به‌کار رفته.

در مرحله پس‌آموزش، متا از روش‌های جدیدی مثل یادگیری تقویتی آنلاین و بهینه‌سازی مستقیم ترجیحی برای بهبود مهارت‌های مدل در استدلال، مکالمه و چندوجهی‌بودن استفاده کرده.

مدل Maverick با بهره‌گیری از این روش‌ها، عملکرد چشمگیری در درک تصویر، تولید متن، پاسخ به پرسش‌های بصری و وظایف پیچیده نشون داده. مدل Scout هم با وجود حجم کمتر، در زمینه‌هایی مثل کدنویسی، پردازش کانتکست بلند، و درک تصویری، نتایجی بهتر از تمام نسل‌های قبلی Llama ارائه می‌ده.

در نهایت، متا تأکید کرده که این مدل‌ها با بالاترین استانداردهای ایمنی توسعه داده شدن. ابزارهایی مثل Llama Guard، Prompt Guard و سامانه‌ی تست GOAT برای جلوگیری از خروجی‌های نامناسب یا سؤاستفاده از مدل‌ها ارائه شده و توسعه‌دهندگان می‌تونن این ابزارها رو متناسب با نیاز خودشون تنظیم کنن. همچنین تلاش‌هایی هم برای کاهش سوگیری‌های سیاسی و اجتماعی در پاسخ‌های مدل صورت گرفته تا Llama 4 بتونه دیدگاه‌های مختلف رو به‌درستی درک و بیان کنه.

@aipulse24

BY Learning With M







Share with your friend now:
tg-me.com/learning_with_m/148

View MORE
Open in Telegram


Learning With M Telegram | DID YOU KNOW?

Date: |

What is Telegram?

Telegram is a cloud-based instant messaging service that has been making rounds as a popular option for those who wish to keep their messages secure. Telegram boasts a collection of different features, but it’s best known for its ability to secure messages and media by encrypting them during transit; this prevents third-parties from snooping on messages easily. Let’s take a look at what Telegram can do and why you might want to use it.

Pinterest (PINS) Stock Sinks As Market Gains

Pinterest (PINS) closed at $71.75 in the latest trading session, marking a -0.18% move from the prior day. This change lagged the S&P 500's daily gain of 0.1%. Meanwhile, the Dow gained 0.9%, and the Nasdaq, a tech-heavy index, lost 0.59%. Heading into today, shares of the digital pinboard and shopping tool company had lost 17.41% over the past month, lagging the Computer and Technology sector's loss of 5.38% and the S&P 500's gain of 0.71% in that time. Investors will be hoping for strength from PINS as it approaches its next earnings release. The company is expected to report EPS of $0.07, up 170% from the prior-year quarter. Our most recent consensus estimate is calling for quarterly revenue of $467.87 million, up 72.05% from the year-ago period.

Learning With M from id


Telegram Learning With M
FROM USA